class: title-slide # ER014 - Data Science & Strategy for Business ## PVA2 ### Teil 1: Einführung Regressionsanalyse <br> <br> <br> <br> <br> <br> <br> ### FS 2025 <br> ### Prof. Dr. Jörg Schoder .mycontacts[
@FFHS-EconomicResearch
@jfschoder ] --- layout: true <div class="my-footer"></div> <div style="position: absolute;left:400px;bottom:10px;font-size:9px">
Prof. Dr. Jörg Schoder</div> --- name: agenda class: left .blockquote[Agenda] ## Einführung in die Regressionsanalyse * Motivation und Einordnung * Korrelation und Kausalität * Arten von Zusammenhängen ??? ToDo: Ergänzung [Kane-Artikel](https://medium.com/the-stata-gallery/correlation-vs-regression-a-key-difference-that-many-analysts-miss-3770c9b368d9) --- class: left .blockquote[Motivation und Einordnung] ## Data Science, Big Data und KI <img src="data:image/png;base64,#../../img/PVA2/BigData_etc_(Vollmer)_linkedin.png" width="1940" /> .quelle[Bildquelle: <a name=cite-vollmer_how_2020></a>[Vollmer (2020)](#bib-vollmer_how_2020).] ??? <a name=cite-stoetzer_regressionsanalyse_2020></a>[Stoetzer (2020b)](#bib-stoetzer_regressionsanalyse_2020) * KI (ML, DeepL etc.) sucht letztlich nach Strukturen und Mustern in meist gigantischen Datenmengen (Big Data). * KI möglich, weil * erstens leistungsfähige Rechner und komplexe Algorithmen existieren und * zweitens solche enormen Datenmengen ohne große Kosten verfügbar sind. * Dabei werden statistische Verfahren genutzt, weil letztlich auch Textdaten, Bilder oder auch Videos in Maschinensprache aus Folgen von 0en und 1en bestehen, die entsprechend mit statistischen Verfahren analysiert werden können * Insofern macht es keinen Unterschied, ob die Zahlenreihe eines Aktienkurses oder ein Text (bspw. Geschäftsbericht) untersucht wird * Viele der Methoden, die in diesem Zusammenhang eingesetzt werden, sind Anwendungen und Erweiterungen von Regressionsverfahren --- class: left .blockquote[Motivation und Einordnung] ## Etymologie .pull-left[ * Latein: "regredi" ("umkehren", "zurückführen/-gehen") * Einführung des Begriffs in die Statisik durch **Francis Galton (1822-1911)**: > "the average regression of the offspring is a constant fraction of their respective mid-parental deviations" (Quelle: [Wikipedia](https://en.wikipedia.org/wiki/Regression_toward_the_mean)).
Tendenz der Rückkehr (*Regression*) zu einem mittleren Wert bei Vererbung körperl. Eigenschaften. ] .pull-right[ <img src="data:image/png;base64,#01_IntroRegression_slides_files/figure-html/unnamed-chunk-2-1.png" width="100%" style="display: block; margin: auto;" /> ] .quelle[Eigene Darstellung. Datenquelle: [HistData](https://friendly.github.io/HistData/).] ??? * Etymologie: Ableitung vom lateinischen Verb "regredi" ("umkehren", "zurückführen/-gehen") * Begriff findet sich in zahlreichen wissenschaftlichen Disziplinen: Psychologie, Geologie,. . . * Einführung in die Statisik durch **Francis Galton (1822-1911)**: > "the average regression of the offspring is a constant fraction of their respective mid-parental deviations" (Quelle: Wikipedia).
extreme Characteristika (hier: Körpergröße) der Eltern werden nicht vollständig an die Nachkommen weitergegeben. Vielmehr gibt es eine Regression (Tendenz der Rückkehr) zu einem mittleren Wert. * Deskriptive vs. induktive/stochastische Regressionsanalyse. * Empirische vs. stoachastische Regressionsanalyse --- class: inverse, center, middle ## Korrelation und Kausalität .blockquote[Refresher: Korrelation] .blockquote[Kausalität] --- class: left .blockquote[Refresher: Korrelation] ## Statistische Zusammenhänge .pull-left[ * Korrelation: * **Richtung und Stärke des Zusammenhangs** zwischen zwei Variablen * Einfache Maße unterstellen einen linearen Zusammenhang * Verschiedene Maße, je nach Skalenniveau der Variablen ] .pull-right[ <img src="data:image/png;base64,#../../img/PVA2/Korrelationsarten_(Gruber).PNG" width="100%" style="display: block; margin: auto;" /> ] .quelle[Bildquelle: <a name=cite-gruber_statistik_2019></a>[Gruber (2019)](#bib-gruber_statistik_2019)] ??? Bei der Korrelation geht es um **Richtung und Stärke des Zusammenhangs** zwischen zwei Variablen. Es wird ein linearer Zusammenhang unterstellt. --- class: left .blockquote[Refresher: Korrelation] ## Korrelation bei metrisch skalierten Variablen .blockquote[
Der Bravais-Pearson-Korrelationskoeffizient `\(r_{XY}\)` ist ein normiertes statistisches Maß, das Auskunft über **Richtung und Stärke** des Zusammenhangs zweier **metrisch skalierter** Merkmale *X* und *Y* gibt. ] Berechnung: $$ `\begin{eqnarray} r_{XY}=\frac{s_{XY}}{s_X\cdot s_Y}&=&\frac{\frac{1}{n}\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^2}\cdot\sqrt{\frac{1}{n}\sum_{i=1}^{n}(y_i-\bar{y})^2}}\nonumber\\ &=&\frac{\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum_{i=1}^{n}(x_i-\bar{x})^2}\cdot\sqrt{\sum_{i=1}^{n}(y_i-\bar{y})^2}} \end{eqnarray}` $$ ??? * Kovarianz ebenfalls Zusammenhangsmaß, aber nicht geeignet, um Stärke des Zusammenhangs anzugeben * Wenn uns nicht nur die Richtung des Zusammenhangs interessiert, ist ein dimensionsloses, normiertes Maß notwendig * Normierung der Kovarianz durch Division mit dem Produkt der Standardabweichungen --- class: left .blockquote[Refresher: Korrelation] ## Beispiel: Bravais-Pearson-Korrelationskoeffizient .panelset[ .panel[.panel-name[Berechnung in R] * `cor()`-Funktion (Base-
) ``` r tbl_galton %>% summarise(r_XY=cor(midparentHeight,childHeight,method = "pearson")) ``` ``` ## r_XY ## 1 0.3209499 ``` * Alternativ: `correlate()`-Funktion (corrr-Paket, tidymodels) ``` r library(corrr) tbl_galton %>% correlate() %>% focus(term,childHeight) ``` ] .panel[.panel-name[Interpretation] * Der Korrelationskoeffizient liegt zwischen +1 und -1. * Besteht kein Zusammenhang, ist der Korrelationskoeffizient Null. * negative Werte zeigen eine gegenläufige Bewegung an, d.h. erhöht sich *x*, dann sinkt `\(y\)` und vice versa. * Je höher der Betrag der Korrelation, desto stärker der Zusammenhang (**Effektstärke**, engl. effect size): * `\(>|0,1|\)`: kleiner Effekt * `\(>|0,3|\)`: mittlerer Effekt * `\(>|0,5|\)`: großer Effekt
Unterschiede in Bewertung Effektstärke zwischen Natur- und Sozialwissenschaften! ] ] --- class: left .blockquote[Kausalität] ## Ursache und Wirkung? <iframe src="https://www.tylervigen.com/spurious-correlations" width="100%" height="470px" data-external="1"></iframe> --- class: left .blockquote[Kausalität] ## Variablenbezeichnungen | Y | X | |:--------------------------------:|:-----------------------------:| | Abhängige Variable | Unabhängige Variable | | Erklärte Variable | Erklärende Variable | | Ergebnisvariable (engl. outcome) | Vorhersagevariable (engl. predictor) | | Regressand | Regressor(en) | | Antwortvariable (engl. response) | Co-Variable (engl. covariate) | | Effektvariable | Kontrollvariable |
[Modeling for explanation vs. Modeling for Prediction](https://moderndive.com/5-regression.html) ??? But, why do we have two **different labels**, **explanatory and predictor**, for the variable `\(x\)`? That’s because *even though the two terms are often used interchangeably, roughly speaking* **data modeling serves one of two purposes**: * **Modeling for explanation**: When you want to explicitly describe and quantify the relationship between the outcome variable `\(y\)` and a set of explanatory variables `\(x\)`, determine the significance of any relationships, have measures summarizing these relationships, and possibly identify any causal relationships between the variables. * **Modeling for prediction**: When you want to predict an outcome variable `\(y\)` based on the information contained in a set of predictor variables `\(x\)`. Unlike modeling for explanation, however, you don’t care so much about understanding how all the variables relate and interact with one another, but rather only whether you can make good predictions about `\(y\)` using the information in `\(x\)`. --- class: left .blockquote[Kausalität] ## Naturwissenschaften vs. Sozialwissenschaften .blockquote[ "If an instance in which the phenomenon under investigation occurs, and an instance in which it does not occur, have every circumstance in common save one, that one occurring only in the former; the circumstance in which alone the two instances differ, is the effect, or the cause, or an indispensable part of the cause, of the phenomenon." .tr[ <a name=cite-mill_system_1882></a>[Mill (1882)](#bib-mill_system_1882) ] ] -- * Experimentelle Daten -- * Beobachtungsdaten --
Problem der Identifikation (<a name=cite-angrist_harmless_2008></a>[Angrist and Pischke (2008)](#bib-angrist_harmless_2008)) ??? * Aus dem regelmäßigen Auftreten von Ereignissen kann nicht auf eine Ursachen - Wirkungsbeziehung geschlossen werden * Warum ist das wichtig? Kann ich sicher sein, dass meine Maßnahmen tatsächlich die gewünschten Folgen haben? * Verweis auf A. Nobel Gedächtnispreis für Wirtschaftswissenschaften 2021 für Card und Angrist (Natürliche Experimente als identification strategy) * [ANSWERING CAUSAL QUESTIONS USING OBSERVATIONAL DATA](https://www.nobelprize.org/uploads/2021/10/advanced-economicsciencesprize2021.pdf) --- class: left .blockquote[Kausalität] ## Problem der Identifikation * Hauptursache: Endogenität (Korrelation von Regressor und Residuen) * Dies wiederum ist möglich bei: * Umgekehrter Kausalität (reverse causality) * Ausgelassenen Variablen (omitted variable bias) * Messfehlern (measurement error) * Konsequenz: verzerrte und inkonsistente Schätzer * Lösungsmöglichkeiten (Identification Strategies nach [Angrist and Pischke (2008)](#bib-angrist_harmless_2008): * Randomisierte Experimente * Natürliche Experimente (Differenzen-in-Differenzen) * Instrumentvariablen (IV): z.B. Zwei-Stufen-Least-Squares * Fixed-Effects-Modelle * ... --- class: left .blockquote[Kausalität] ## Exkurs: Granger-Kausalität * <a name=cite-granger_investigating_1969></a>[Granger (1969)](https://www.jstor.org/stable/1912791) versucht Ursache und Wirkung durch die zeitliche Abfolge zu untersuchen * Idee: Wenn Werte der Variable `\(X\)` aus der Vergangenheit helfen, die Entwicklung einer Variable `\(Y\)` vorherzusagen, kann von einer kausalen Beziehung ausgegangen werden. * Setzt voraus, dass "alles andere" unverändert ist (Hume: "constant conjunctions") -- * Begrenzte Anwendbarkeit in den **Sozialwissenschaften** * Steigende Einzelhandelsumsätze als Ursache für Weihnachten? * Vorausschauende Akteure und die Rolle von Erwartungen! --- class: left .blockquote[Kausalität] ## Kontrafaktischer Kausalitätsbegriff * Vorherrschender Kausalitätsbegriff: Vergleich von Faktum und Kontrafaktum -- * Faktum: als gegeben akzeptierte Tatsache -- * Kontrafaktum: Alternative zum Faktum .blockquote[ D. Hume (sinngemäß): Wäre das Ereignis (Faktum) auch eingetreten, wenn die (vermeintliche!) Ursache nicht stattgefunden hätte (Kontrafaktum)? ]
Beobachtbar ist in der Regel entweder das Faktum oder das Kontrafaktum! ??? * Beispiel: Tablette und Kopfweh * Kopfweh weg weil Tablette genommen * Wäre Kopfweh auch weggegangen ohne Tablette? [Stocker, Kap. 10](https://www.uibk.ac.at/econometrics/einf/kap10.pdf): [nobelprize.org](https://www.nobelprize.org/uploads/2021/10/advanced-economicsciencesprize2021.pdf): Most applied science is concerned with uncovering causal relationships. In many fields, randomized controlled trials (RCTs) are considered the gold standard for achieving this. The systematic use of RCTs to study causal relationships — assessing the efficacy of a medical treatment for example - has resulted in tremendous welfare gains in society. However, due to financial, ethical, or practical constraints, many important questions - particularly in the social sciences - cannot be studied using a controlled randomized experiment. For example, what is the impact of school closures on student learning and the spread of the COVID-19 virus? What is the impact of low-skilled immigration on employment and wages? How do institutions affect economic development? How does the imposition of a minimum wage affect employment? --- class: left .blockquote[Kausalität] ## Variablentypen <img src="data:image/png;base64,#../../img/PVA2/Variablenarten_(Goldenstein_etal_2018)_S115.PNG" width="80%" style="display: block; margin: auto;" /> .quelle[Quelle: <a name=cite-goldenstein_wissenschaftliches_2018-1></a>[Goldenstein, Hunoldt, and Walgenbach (2018)](https://doi.org/10.1007/978-3-658-20345-0), S. 115.] ??? Beispiel Werbung und Umsätze aus [Stocker, Kap. 10](https://www.uibk.ac.at/econometrics/einf/kap10.pdf), S. 4: - Werbeausgaben als Ursache für höhere Umsätze: dies ist die gängige Argumentation der Marketingabteilungen. - Höhere Umsätze als Ursache für Werbeausgaben (*reverse causality*): dies kann der Fall sein, wenn höhere Umsätze die Finanzierung zusätzlicher Werbeausgaben ermöglichen. - Ein dritter Faktor (*confounding variable*) ist eine gemeinsame Ursache für Umsätze und Werbeausgaben (**Scheinkorrelation**): z.B. könnte eine gute Konjunktur zu steigenden Umsätzen und zu steigenden Werbeausgaben führen. - Nicht alle Firmen wurden erfasst, möglicherweise wurden besonders große oder kleine Firmen nicht erfasst, oder besonders erfolgreiche oder erfolglose Firmen antworteten nicht auf eine Umfrage (*Selektionsprobleme*). Oder möglicherweise wurden die Ergebnisse durch eine Untergruppe von Firmen (z.B. Branche) getrieben (*unobserved heterogeneity*). - Die Korrelation zwischen Umsätzen und Werbeausgaben könnte in einer Stichprobe zufällig auftreten: dies - und nur dies - sollte durch **statistische Tests** erkennbar sein. --- class: left .blockquote[Kausalität] ## Ursache und Wirkung <br> <img src="data:image/png;base64,#https://imgs.xkcd.com/comics/correlation.png" style="display: block; margin: auto;" /> .quelle[Bildquelle: [xkcd.com/comics](https://imgs.xkcd.com/comics/correlation.png).] --- class: inverse, center, middle ## Arten von Zusammenhängen .blockquote[Exakte vs. statistische Zusammenhänge] .blockquote[Lineare vs. nicht-lineare Zusammenhänge] --- class: left .blockquote[Exakte vs. statistische Zusammenhänge] ## Beispiel .pull-left[ <img src="data:image/png;base64,#01_IntroRegression_slides_files/figure-html/unnamed-chunk-11-1.png" width="100%" style="display: block; margin: auto;" /> ] -- .pull-right[ <img src="data:image/png;base64,#01_IntroRegression_slides_files/figure-html/unnamed-chunk-12-1.png" width="100%" style="display: block; margin: auto;" /> ] .quelle[Eigene Darstellung basierend auf: <a name=cite-stocker_grundlagen_nodate></a>[Stocker ()](#bib-stocker_grundlagen_nodate), S. 5.] ??? * Auch in einer komplexen Welt sind **exakte** Zusammenhänge zwischen zwei Variablen zu beobachten, bspw. beim Tanken * Aber Vielfach sind die Zusammenhänge weniger eindeutig. beispielsweise auf dem Gebrauchtwagenmarkt. Offensichtlich sinkt der "durchschnittliche" Preis mit dem Alter, aber der Zusammenhang gilt nicht länger exakt * Ursachen: Autos unterscheiden sich in anderen - hier nicht dargestellten - Charakteristika: * Kilometerstand, * Ausstattung * Farbe * Verkäufer und deren Motive, * Ort und vieles mehr * Trotzdem ist klar erkennbar, dass ältere Autos "im Durchschnitt" billiger sind, und dass dieser Zusammenhang durch die strichliert eingezeichnete Gerade relativ gut approximiert werden kann. * Damit schon ein wichtiger Hinweis für empirische Regressionsanalyse: dort beschäftigen wir uns mit **bedingten Mittelwerten** --- class: left .blockquote[Exakte vs. Statistische Zusammenhänge] ## Deskriptive vs. stochastische Regressionsanalyse .pull-left[ * **Deskriptive**: * Beschreibung der Beziehung zwischen Variablen * Regressionsgleichung: `$$y_i=b_1+b_2\cdot x_i+e_i$$` * Interpretation der Koeffizienten als **bedingte Mittelwerte** ] -- .pull-right[ * **Stochastische**: * Modellierung der Beziehung zwischen Variablen unter Berücksichtigung von Unsicherheit * Regressionsgleichung: `$$y_i=\beta_1+\beta_2\cdot x_i+\epsilon_i$$` * Instrument für induktive Schlussfolgerungen (**Parameter** der Grundgesamtheit) ] --
Ob eine Regressionsanalyse deskriptiv oder stochastisch ist, hängt nicht von den Daten sondern vom Erkenntnisinteresse ab! ??? [Stocker, Kap. 3](https://www.uibk.ac.at/econometrics/einf/kap03_stoch.pdf) Tatsächlich wird die Regressionsanalyse eher selten für deskriptive Zwecke eingesetzt. In den meisten Fällen interessieren wir uns nicht für die konkret beobachteten Einzelfälle, sondern wir interpretieren diese Beobachtungen lediglich als Stichprobe aus einer unbeobachtbaren Grundgesamtheit, und unser eigentliches Interesse gilt den Zusammenhängen in dieser Grundgesamtheit. Ob eine Regressionsanalyse deskriptiv oder stochastisch ist hängt nicht von den Daten ab, sondern von unserem Erkenntnisinteresse! Die gleichen Beobachtungen können mit Hilfe einer deskriptiven Regressionsanalyse einfach beschrieben werden, oder als Stichprobe aus einer größeren Grundgesamtheit interpretiert werden. Im zweiten Fall wird mit Hilfe der stochastischen Regressionsanalyse versucht, die Information aus der Stichprobe für Rückschlüsse auf die Grundgesamtheit zu nützen. * Regressionsgleichungen * Während im Fall der deskriptiven Analyse `\(y_i = b_1+b_2\cdot x_i+e_i\)`, werden im Fall der stochastischen Analyse **griechische Symbole** verwendet. * Der Grund ist einfach: in der deskriptiven Analyse konnten wir die Koeffizienten `\(b_1\)` und `\(b_2\)` berechnen, da alle interessierenden Beobachtungen verfügbar waren. * Hingegen ist die Grundgesamtheit nicht beobachtbar, deshalb können wir die beiden Koeffizienten `\(\beta_1\)` und `\(beta_2\)` nicht berechnen! Wir müssen sie schätzen * Dabei wissen wir, dass die unbekannten Koeffizienten `\(\beta_1\)` und `\(beta_2\)` existieren, und dass sie fixe Zahlen sind. * Solche unbekannte Größen der Grundgesamtheit werden häufig **Parameter** genannt * Das Wort **"para"-"meter"** verweist aber auf etwas, das **über das Messen hinausgeht** (wie die Parapsychologie auf etwas verweist, was über die Psychologie hinausgeht). * In der Mathematik versteht man darunter spezielle Variablen, die im gegenständlichen Fall als konstant angenommen werden, in anderen Fällen aber variiert werden können (gewissermaßen "beliebig, aber fest" sind). * In diesem Sinne verwenden wir im folgenden den Begriff "Parameter" für Werte, die in einer unbeobachtbaren Grundgesamtheit als konstant - aber unbeobachtbar - angenommen werden. * Eine typische Aufgabe der Statistik ist es solche Parameter aus einer Stichprobe zu schätzen. --- class: left .blockquote[Lineare vs. nicht-lineare Zusammenhänge] ## Zusammenhänge und Funktionstypen * Kann die Tendenz des Zusammenhangs durch eine Funktion beschrieben werden? * Typen der Tendenz des Zusammenhangs: -- * *linearer* Zusammenhang -- * *nicht-linearer* Zusammenhang -- * Polynom -- * logarithmisch -- * exponentiell -- * parabelförmig -- * ... --- class: left .blockquote[Lineare vs. nicht-lineare Zusammenhänge] ## Linearität: Beispiel "Anscombe Quartett" .panelset[ .panel[.panel-name[Daten] ``` ## # A tibble: 10 × 4 ## observation set x y ## <int> <chr> <dbl> <dbl> ## 1 1 I 10 8.04 ## 2 1 II 10 9.14 ## 3 1 III 10 7.46 ## 4 1 IV 8 6.58 ## 5 2 I 8 6.95 ## 6 2 II 8 8.14 ## 7 2 III 8 6.77 ## 8 2 IV 8 5.76 ## 9 3 I 13 7.58 ## 10 3 II 13 8.74 ``` ] .panel[.panel-name[Korrelationen] ``` r # Correlations ---- tbl_anscombe %>% group_by(set) %>% summarise(corr=cor(x,y,method = "pearson")) ``` ``` ## # A tibble: 4 × 2 ## set corr ## <chr> <dbl> ## 1 I 0.816 ## 2 II 0.816 ## 3 III 0.816 ## 4 IV 0.817 ``` ] .panel[.panel-name[Plot] <img src="data:image/png;base64,#01_IntroRegression_slides_files/figure-html/unnamed-chunk-15-1.png" width="55%" style="display: block; margin: auto;" /> ] ] .quelle[Eigene Darstellung. Daten:
.] ??? * Verweis auf Bedeutung der EDA! Kennzahlen allein problemtatisch * I: Variablen scheinen normalverteilt. Diagramm legt nahe, dass beide Variablen normalverteilt sind. * II: offensichtlicher Zusammenhang, der aber nicht linear ist. * III: perfekte lineare Korrelation. Ausreißer führt zu Verringerung des Pearson-Koeff. * IV: Ausreißer kann Korrelationskoeff. auch (künstlich) erhöhen [vgl. Gruber](https://wgruber.github.io/Modellbildung/korrelationen.html) --- class: left .blockquote[Lineare vs. nicht-lineare Zusammenhänge] ## Theoriegeleitete vs. datengetriebene Analyse <img src="data:image/png;base64,#https://imgs.xkcd.com/comics/linear_regression.png" style="display: block; margin: auto;" /> .quelle[Bildquelle: [xkcd.com/comics](https://imgs.xkcd.com/comics/linear_regression.png).] ??? * Kritisch * Zeigt letztlich, dass es wichtig ist eine Theorie zu haben. Es geht nicht um "Data-fitting", auch wenn es manchmal verlockend ist --- class: inverse,center,middle # Wir brauchen eine Pause. --- background-image: url("data:image/png;base64,#http://bit.ly/cs631-donkey") background-size: 80% --- class: left ## Quellenverzeichnis .ref-slide[ <a name=bib-angrist_harmless_2008></a>[Angrist, J. D. and J. Pischke](#cite-angrist_harmless_2008) (2008). _Mostly Harmless Econometrics: An Empiricist's Companion_. Princeton, New Jersey: Princeton University Press. ISBN: 978-0691120355. <a name=bib-goldenstein_wissenschaftliches_2018-1></a>[Goldenstein, J., M. Hunoldt, and P. Walgenbach](#cite-goldenstein_wissenschaftliches_2018-1) (2018). _Wissenschaftliche(s) Arbeiten in den Wirtschaftswissenschaften_. Wiesbaden: Springer Fachmedien Wiesbaden. ISBN: 978-3-658-20344-3 978-3-658-20345-0. DOI: [10.1007/978-3-658-20345-0](https://doi.org/10.1007%2F978-3-658-20345-0). (Visited on Apr. 14, 2024). <a name=bib-granger_investigating_1969></a>[Granger, C. W. J.](#cite-granger_investigating_1969) (1969). "Investigating Causal Relations by Econometric Models and Cross-spectral Methods". In: _Econometrica_ 37.3, p. 424. ISSN: 00129682. DOI: [10.2307/1912791](https://doi.org/10.2307%2F1912791). JSTOR: [1912791](https://www.jstor.org/stable/1912791). (Visited on Apr. 15, 2024). <a name=bib-gruber_statistik_2019></a>[Gruber, W.](#cite-gruber_statistik_2019) (2019). _Statistik Mit R Für Fortgeschrittene. Statistische Modellbildung - Teil 2_. (Visited on Apr. 15, 2024). <a name=bib-ismay_statistical_2020-1></a>[Ismay, C. and A. Y. Kim](#cite-ismay_statistical_2020-1) (2020). _Statistical Inference via Data Science: A ModernDive into R and the Tidyverse_. The R Series. Boca Raton London New York: CRC Press, Taylor & Francis Group. ISBN: 978-0-367-40982-1 978-0-367-40987-6. <a name=bib-mill_system_1882></a>[Mill, J. S.](#cite-mill_system_1882) (1882). _A System of Logic, Ratiocinative and Inductive. Being a Connected View of the Principles of Evidence, and the Methods of Scientific Investigation_. Eighth Edition. New York: Harper & Brothers Publishers. (Visited on Apr. 14, 2024). <a name=bib-stocker_grundlagen_nodate></a>[Stocker, H.](#cite-stocker_grundlagen_nodate) "Grundlagen Der Deskriptiven Regressionsanalyse - OLS Mechanik". Innsbruck. <a name=bib-stoetzer_regressionsanalyse_2020></a>[Stoetzer, M.](#cite-stoetzer_regressionsanalyse_2020) (2020b). _Regressionsanalyse in der empirischen Wirtschafts- und Sozialforschung Band 2: Komplexe Verfahren_. Berlin, Heidelberg: Springer Berlin Heidelberg. ISBN: 978-3-662-61437-2. (Visited on Apr. 14, 2024). <a name=bib-vollmer_how_2020></a>[Vollmer, M.](#cite-vollmer_how_2020) (2020). _How to Make It Simple to Explain AI, ML, DL Together with Data Science, Data Analysis & Analytics and Data Mining?_ https://www.linkedin.com/pulse/how-make-simple-explain-ai-ml-dl-together-data-science-vollmer/. (Visited on Apr. 14, 2024). ]